OneHot编码是什么 和 数字编码

onehot编码(独热编码)
大部分算法不能直接处理字符串,所以↓,要表示的信息👇

id 颜色
1 red
2 blue
3 green
4 blue
Onehot编码:
red = [ 1 , 0 , 0 ]
blue = [ 0 , 1 , 0 ]
green = [ 0 , 0 , 1 ]

编码后算法能识别的矩阵:

[1,0,0]
[0,1,0]
[0,0,1]
[0,1,0]

如果元素非常多,那么这个编码的数组会非常大,很占内存red = [1,0,0]

所以还有一种编码方式叫数字编码,给每个元素标记一个数字